音声情報処理 12
「アナログ」と「デジタル」を振り返る
情報分野では,「連続量」に相当
⽔の流れ,雲の動き,波の⾳など
情報分野では,「離散量」に相当
どのように離散化すればよいのか?
信号からのさらなる情報の取得
感情分析や⾳声認識など
AD変換
アナログ信号→離散時間信号→デジタル信号
経由
時間に対し無限
ある時間間隔で信号を抽出,時間領域を離散化
標本化間隔(≒標本化周波数)が重要
信号を取り出す時間間隔
標本化周波数 $ f_s(=1 )Hz)
1秒間に取り出す標本値の個数
⾳楽CD:44,100 Hz
標本化の間隔が短い=標本化周波数が⾼い
→より忠実にアナログな波形を表現可能
連続値の振幅を離散値に変換
量⼦ビット数:振幅の解像度
各時刻における信号を何段階のレベルで表現するか
⾳楽CDの量⼦化ビット:16ビット
$ 2^{16}=65,536段階で振幅をセンシング
量⼦化ビット数が⼤きいほど忠実にアナログ信号を捉えられる
量⼦化では誤差も発⽣する
3Hzの波について
標本化周波数:4Hz
量⼦化:2bit
で変換
22=4段階で表現
⾼い標本化周波数=⾼⾳質=データ量が多い
標本化周波数が低い
結果的に⾳が低くなる
⾼い量⼦化ビット数=⾼⾳質=データ量が多い
量⼦化誤差によって⾳が歪む
任意の帯域Bで制限された連続信号は(1/2B)の時間間隔で標本化した時間信号を⽤いて再現可能
「帯域で制限」とは
時間信号を,ある⼀定の周波数の帯域までの信号によって表現すること
連続的な波形からサンプリングする頻度を制限
周期は2Bに制限:つまり,プラスマイナスBの幅
そもそも⼈間の可聴域は,20Hz〜20,000Hz 人間にとってのコンテンツ
アナログ信号に含まれる最⾼周波数がBであればBの2倍以上の標本化周波数で標本化すれば,元の信号を復元できることが保証される
例えば,最⾼周波数=200の場合は,400Hzあれば良い
⼈間の可聴域の最⼤周波数:おおよそ20,000Hz
CDの標本化周波数:44,000Hz (> 2 ×20,000Hz)
波の重なりや折返しが発⽣
重なるタイミングで⾒てしまう:低い周波数に⾒える
44.1kHzで量⼦化16bit
ステレオ録⾳
マイクが右と左
10秒間
441000(標本化周波数) × 16([量子化ビット数) × 10(秒数)× 2(マイク数) = 14,112,000 bit 14,112,000 bit/8 = 1,764,000 Byte = 1.76MByte